核心概念总结
双变量数据 (Bivariate Data)
双变量数据是为两个变量提供成对值的数据。例如,呼吸频率与脉搏率的关系数据。
双变量数据可以用散点图表示,其中每个点代表一对数据值。
散点表示例:呼吸频率与脉搏率关系
变量类型
- 自变量 (Independent/Explanatory Variable):研究者可以控制的变量,通常绘制在横轴(x轴)上
- 因变量 (Dependent/Response Variable):研究者测量的变量,其值由自变量决定,通常绘制在纵轴(y轴)上
相关性 (Correlation)
相关性描述两个变量之间线性关系的性质和强度。相关性不暗示因果关系,只表示变量间的关联程度。
正相关 (Positive Correlation)
当一个变量增加时,另一个变量也增加
负相关 (Negative Correlation)
当一个变量增加时,另一个变量减少
无相关 (No Correlation)
变量间没有明显的线性关系
注意事项 (Watch out)
只能用相关性描述显示线性关系的数据。没有线性相关性的变量仍然可能显示非线性关系。
相关性不等于因果关系!两个变量显示相关性并不一定意味着存在因果关系。
应用技巧
散点图分析技巧
- 总是检查坐标轴刻度是否合理,避免误导性可视化
- 注意识别异常值,它们可能会显著影响相关性分析
- 考虑数据收集的背景,避免仅基于图形得出错误结论
- 当数据点较多时,注意观察整体模式而非个别点
因果关系判断
判断因果关系时,需要考虑问题的背景并运用常识,不能仅根据相关性得出结论。
建立因果关系通常需要对照实验、控制变量和理论基础支持。